2024-06
使用文本到图像扩散模型的多模态引导图像编辑综述
分类: 计算机视觉和模式识别
作者: Xincheng Shuai, Henghui Ding, Xingjun Ma, Rongcheng Tu, Yu-Gang Jiang, Dacheng Tao
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14555v1
摘要: 图像编辑的目的是编辑给定的合成或真实图像,以满足用户的特定要求。近年来,它作为人工智能生成内容(AIGC)的一个有前途且具有挑战性的领域得到了广泛的研究。该领域最近的重大进展基于文本到图像(T2I)扩散模型的开发,该模型根据文本提示生成图像。这些模型展示了卓越的生成能力,并已成为广泛使用的图像编辑工具。基于 T2I 的图像编辑方法显着增强了编辑性能,并提供了一个用户友好的界面,用于修改由多模式输入引导的内容。在本次调查中,我们对利用 T2I 扩散模型的多模态引导图像编辑技术进行了全面回顾。首先,我们从整体角度定义了图像编辑的范围,并详细介绍了各种控制信号和编辑场景。然后,我们提出一个统一的框架来形式化编辑过程,将其分为两个主要算法系列。该框架为用户提供了实现特定目标的设计空间。随后,我们对该框架内的各个组件进行了深入分析,考察了不同组合的特点和适用场景。鉴于基于训练的方法学习在用户指导下将源图像直接映射到目标图像,我们分别讨论它们,并介绍不同场景下源图像的注入方案。此外,我们回顾了 2D 技术在视频编辑中的应用,重点介绍了帧间不一致的解决方案。最后,我们讨论该领域的开放挑战并提出未来潜在的研究方向。我们持续追踪相关作品:https://github.com/xin Chengshuai/Awesome-Image-Editing。
通过结构和主题保留增强推进细粒度分类
分类: 计算机视觉和模式识别
作者: Eyal Michaeli, Ohad Fried
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14551v1
摘要: 细粒度视觉分类(FGVC)涉及对密切相关的子类进行分类。由于类之间的细微差异和类内差异较大,这项任务很困难。此外,FGVC 数据集通常很小且难以收集,因此凸显了对有效数据增强的巨大需求。文本到图像扩散模型的最新进展为增强分类数据集提供了新的可能性。虽然这些模型已用于生成分类任务的训练数据,但它们在 FGVC 模型的全数据集训练中的有效性仍有待探索。最近依赖 Text2Image 生成或 Img2Img 方法的技术通常难以生成准确表示类的图像,同时将它们修改到显着增加数据集多样性的程度。为了应对这些挑战,我们提出了 SaSPA:结构和主题保留增强。与最近的方法相反,我们的方法不使用真实图像作为指导,从而提高了生成灵活性并促进了更大的多样性。为了确保准确的类表示,我们采用调节机制,特别是通过对图像边缘和主题表示进行调节。我们进行了广泛的实验,并针对传统和最新的生成数据增强方法对 SaSPA 进行了基准测试。 SaSPA 在多个设置中始终优于所有已建立的基线,包括完整数据集训练、上下文偏差和少样本分类。此外,我们的结果揭示了在 FGVC 模型中使用合成数据的有趣模式;例如,我们发现所使用的实际数据量与合成数据的最佳比例之间的关系。代码可在 https://github.com/EyalMichaeli/SaSPA-Aug 获取。
一致性模型变得简单
分类: 机器学习, 计算机视觉和模式识别
作者: Zhengyang Geng, Ashwini Pokle, William Luo, Justin Lin, J. Zico Kolter
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14548v1
摘要: 一致性模型 (CM) 是一类新兴的生成模型,它提供比传统扩散模型更快的采样速度。 CM 强制采样轨迹上的所有点都映射到同一初始点。但这一目标会导致资源密集型训练:例如,截至 2024 年,在 CIFAR-10 上训练 SoTA CM 需要在 8 个 GPU 上花费一周时间。在这项工作中,我们提出了一种训练 CM 的替代方案,大大提高了构建此类模型的效率。具体来说,通过特定的微分方程表达 CM 轨迹,我们认为扩散模型可以被视为具有特定离散化的 CM 的特例。因此,我们可以从预训练的扩散模型开始微调一致性模型,并在训练过程中逐渐接近完全一致性条件。我们所得到的方法,我们称之为简单一致性调整 (ECT),极大地缩短了训练时间,同时确实提高了之前方法的质量:例如,ECT 在单个 A100 上 1 小时内在 CIFAR10 上实现了 2.73 的 2 步 FID GPU,匹配经过数百个 GPU 小时训练的一致性蒸馏。由于这种计算效率,我们研究了 ECT 下 CM 的标度律,表明它们似乎遵循经典的幂律标度,这暗示了它们在更大范围内提高效率和性能的能力。代码 (https://github.com/locuslab/ect) 可用。
大约 7 个步骤即可实现文本引导图像编辑的可逆一致性蒸馏
分类: 计算机视觉和模式识别
作者: Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14539v1
摘要: 扩散蒸馏代表了一个非常有前途的方向,可以通过几个采样步骤实现忠实的文本到图像的生成。然而,尽管最近取得了成功,现有的蒸馏模型仍然无法提供全方位的扩散能力,例如真实图像反转,这使得许多精确的图像处理方法成为可能。这项工作旨在丰富经过蒸馏的文本到图像的扩散模型,使其能够有效地将真实图像编码到其潜在空间中。为此,我们引入了可逆一致性蒸馏(iCD),这是一种广义一致性蒸馏框架,只需 3-4 个推理步骤即可实现高质量图像合成和准确图像编码。尽管文本到图像扩散模型的反演问题因无分类器的高引导尺度而加剧,但我们注意到动态引导显着减少了重建错误,而生成性能没有明显下降。因此,我们证明配备动态引导的 iCD 可以作为零次文本引导图像编辑的高效工具,与更昂贵的最先进替代品竞争。
V-LASIK:使用合成数据从视频中一致地摘除眼镜
分类: 计算机视觉和模式识别, 人工智能, 图形
作者: Rotem Shalev-Arkushin, Aharon Azulay, Tavi Halperin, Eitan Richardson, Amit H. Bermano, Ohad Fried
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14510v1
摘要: 基于扩散的生成模型最近表现出了卓越的图像和视频编辑能力。然而,本地视频编辑,特别是去除眼镜等小属性,仍然是一个挑战。现有方法要么过度改变视频,产生不切实际的伪像,要么无法在整个视频中一致地执行所请求的编辑。在这项工作中,我们专注于视频中一致且保留身份的眼镜去除,将其用作视频中一致的局部属性去除的案例研究。由于缺乏配对数据,我们采用弱监督方法并使用调整后的预训练扩散模型生成合成不完美数据。我们表明,尽管数据不完善,但通过从生成的数据中学习并利用预先训练的扩散模型的先验,我们的模型能够一致地执行所需的编辑,同时保留原始视频内容。此外,我们通过成功地将我们的方法应用于面部贴纸去除,证明了我们的方法对其他本地视频编辑任务的泛化能力。我们的方法展示了对现有方法的显着改进,展示了利用合成数据和强大的视频先验来执行本地视频编辑任务的潜力。
SafeSora:通过人类偏好数据集实现 Text2Video 生成的安全对齐
分类: 计算机视觉和模式识别, 人工智能, 数据库
作者: Josef Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen, Jiaming Ji, Yaodong Yang
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14477v1
摘要: 为了降低大型视觉模型 (LVM) 有害输出的风险,我们引入了 SafeSora 数据集,以促进使文本到视频生成与人类价值观保持一致的研究。该数据集涵盖了人类在文本到视频生成任务中的偏好,主要体现在两个主要维度:有用性和无害性。为了深入捕捉人类偏好并促进众包人员进行结构化推理,我们将有用性细分为 4 个子维度,将无害性细分为 12 个子类别,作为试点注释的基础。 SafeSora 数据集包括 14,711 个独特的提示、由 4 个不同的 LVM 生成的 57,333 个独特的视频以及由人类标记的 51,691 对偏好注释。我们通过多个应用进一步展示了 SafeSora 数据集的实用性,包括训练文本视频审核模型以及通过微调提示增强模块或扩散模型来使 LVM 与人类偏好保持一致。这些应用凸显了其作为文本到视频对齐研究基础的潜力,例如人类偏好建模以及对齐算法的开发和验证。
具有学习动作先验的视频生成
分类: 计算机视觉和模式识别, 机器人技术
作者: Meenakshi Sarkar, Devansh Bhardwaj, Debasish Ghose
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14436v1
摘要: 当相机安装在移动平台上时,随机视频生成尤其具有挑战性,因为相机运动与观察到的图像像素相互作用,产生复杂的时空动态并使问题部分可观察。现有方法通常通过关注原始像素级图像重建来解决这个问题,而不需要明确地建模相机运动动力学。我们提出了一种解决方案,将相机运动或动作视为观察到的图像状态的一部分,在多模态学习框架内对图像和动作进行建模。我们介绍了三种模型:带有学习动作先验的视频生成(VG-LeAP)将图像-动作对视为从单个潜在随机过程生成的增强状态,并使用变分推理来学习图像-动作潜在先验; Causal-LeAP,在$t$时间建立动作和观察到的图像帧之间的因果关系,学习以观察到的图像状态为条件的先验动作; RAFI 将增强图像动作状态概念集成到与扩散生成过程的流匹配中,证明这种动作条件图像生成概念可以扩展到其他基于扩散的模型。通过对我们的新视频动作数据集 RoAM 进行详细的实证研究,我们强调了多模态训练在部分可观察视频生成问题中的重要性。
CollaFuse:协作扩散模型
分类: 机器学习, 人工智能, 计算机视觉和模式识别
作者: Simeon Allmendinger, Domenique Zipperling, Lukas Struppek, Niklas Kühl
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14429v1
摘要: 在生成人工智能领域,基于扩散的模型已成为生成合成图像的一种有前途的方法。然而,扩散模型的应用带来了许多挑战,特别是在数据可用性、计算要求和隐私方面。解决这些缺点的传统方法(例如联合学习)通常会给个体客户端带来巨大的计算负担,尤其是那些资源有限的客户端。为了应对这些挑战,我们引入了一种受分割学习启发的分布式协作扩散模型的新方法。我们的方法促进了扩散模型的协作训练,同时减轻了图像合成期间客户的计算负担。这种减少的计算负担是通过在每个客户端本地保留数据和计算成本低廉的进程,同时将计算成本昂贵的进程外包给共享的、更高效的服务器资源来实现的。通过对常见 CelebA 数据集的实验,我们的方法通过减少共享原始数据的必要性来证明增强的隐私性。这些功能在各个应用领域都具有巨大潜力,包括边缘计算解决方案的设计。因此,我们的工作通过促进协作扩散模型的演变来推进分布式机器学习。
主动扩散二次采样
分类: 机器学习
作者: Oisin Nolan, Tristan S. W. Stevens, Wessel L. van Nierop, Ruud J. G. van Sloun
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14388v1
摘要: 二次采样通常用于降低与数据采集相关的成本,例如时间或能量需求,从而促进算法的开发,以根据部分观测的测量值 $y$ 估计感兴趣的完全采样信号 $x$。在最大熵采样中,选择预计具有最高熵的测量位置,以最小化$x$的不确定性。考虑到迄今为止观察到的测量结果,这种方法依赖于未来测量结果的后验分布的准确模型。最近,扩散模型已被证明可以使用引导扩散产生高维信号的高质量后验样本。在这项工作中,我们提出了主动扩散子采样(ADS),这是一种使用引导扩散执行主动子采样的方法,其中模型在整个反向扩散过程中跟踪 $x$ 真实状态的信念分布,从而逐步降低其不确定性选择获取具有最大预期熵的测量值,并最终生成后验分布 $p(x | y)$。 ADS 可以使用针对任何二次采样率的预训练扩散模型进行应用,并且不需要特定于任务的重新训练 - 只需要测量模型的规范。此外,ADS 采用的最大熵采样策略是可解释的,相对于使用黑盒策略的现有方法提高了透明度。通过实验,我们证明了 ADS 优于固定采样策略,并使用 fastMRI 数据集研究了 ADS 在磁共振成像加速中的应用,发现 ADS 的性能与监督方法相比具有竞争力。代码可在 https://active-diffusion-subsampling.github.io/ 获取。
VLBiasBench:评估大型视觉语言模型偏差的综合基准
分类: 计算机视觉和模式识别, 人工智能
作者: Jie Zhang, Sibo Wang, Xiangkui Cao, Zheng Yuan, Shiguang Shan, Xilin Chen, Wen Gao
发布时间: 2024-06-20
链接: http://arxiv.org/abs/2406.14194v1
摘要: 大视觉语言模型(LVLM)的出现标志着实现通用人工智能的重大进步。然而,这些进步受到往往反映偏见的产出的影响,这一问题尚未得到广泛调查。由于数据规模有限、提问形式单一、偏差来源狭窄,现有基准在评估偏差方面不够全面。为了解决这个问题,我们引入了 VLBiasBench,一个旨在全面评估 LVLM 偏差的基准。在 VLBiasBench 中,我们构建了一个数据集,其中包含九个不同类别的社会偏见,包括年龄、残疾状况、性别、国籍、外貌、种族、宗教、职业、社会经济地位和两个交叉偏见类别(种族 x 性别和种族 x社会经济地位)。为了创建大规模数据集,我们使用Stable Diffusion XL模型生成46,848张高质量图像,这些图像与不同的问题组合形成128,342个样本。这些问题分为开放式和封闭式两种类型,充分考虑偏差的来源,从多个角度综合评价LVLM的偏差。随后,我们对 15 个开源模型以及一个先进的闭源模型进行了广泛的评估,为这些模型所揭示的偏差提供了一些新的见解。我们的基准测试可在 https://github.com/Xiangkui-Cao/VLBiasBench 上找到。